Продвинутые методы внедрения знаний в больших языковых моделях
Аннотация:
Трансформерные языковые модели революционизировали Natural Language Processing задачи благодаря достижениям в методах моделирования языка. Текущие архитектуры трансформеров используют механизмы внимания для эффективного моделирования текстовых зависимостей. Исследования показали, что эти модели встраивают синтаксические структуры и знания, объясняя их эффективность в задачах, связанных с синтаксическими и семантическими элементами. Однако трансформаторные модели склонны к галлюцинациям, когда встроенные знания не используются эффективно. Для решения этой проблемы появляются методы, направленные на снижение галлюцинаций и интеграцию внешних источников знаний, таких как графы знаний (например, Freebase, WordNet, ConceptNet, ATOMIC). Графы знаний представляют реальные знания через сущности и отношения, предлагая потенциальную точку внедрения для повышения производительности модели в задачах вывода. Различные подходы к внедрениям, включая внедрения входных и выходных данных, а также архитектурные, направлены на включение знаний из графов в трансформерные модели. Внедрения входных данных модифицируют предварительную обработку данных, архитектурные добавляют слои для интеграции знаний, а внедрения выходных данных корректируют функции ошибок для правильного включения знаний во время обучения. Несмотря на продолжающиеся исследования, универсальное решение проблемы галлюцинаций и стандартизированный бенчмарк для сравнения методов внедрения знаний отсутствуют. В данном исследовании рассматриваются графы знаний как один из методов решения галлюцинаций и их возможная интеграция в большие языковые модели. Сравнительные эксперименты на бенчмарке General Language Understanding Evaluation показали, что ERNIE 3.0 и XLNet превосходят другие методы внедрения со средними оценками 91,1 % и 90,1 %.
Ключевые слова:
Постоянный URL
Статьи в номере
- Органо-неорганические светопоглощающие композиты для ближней инфракрасной области спектра
- Исследование пироэлектрического эффекта и создание модифицированной конструкции фазового модулятора на основе ниобата лития
- Изменение контраста изображения объекта наблюдения при однопиксельной и матричной визуализации через рассеивающую среду
- Синтез адаптивного наблюдателя для нелинейных нестационарных систем
- Автоматизация поиска оптимальных значений параметров процесса олигомеризации этилена
- Электролюминесценция новых координационных соединений ионов европия с β-дикетонами, уксусной и масляной кислотами
- Метод формирования мультимедийных файлов для задач лицевой биометрии и ее приложений
- Предсказание связей «ген-болезнь» с помощью гетерогенной графовой нейронной сети
- Компьютерное моделирование взаимодействия ударной волны со стенкой, экранированной неоднородным слоем газовзвеси
- Моделирование многомерных данных с помощью композитных байесовских сетей
- Метод получения двухкомпонентных композиционных материалов с заданной теплопроводностью
- Компьютерное моделирование тепломассообменных процессов при конденсации водяных паров из продуктов сгорания природного газа на поверхности гладких цилиндрических труб
- Потеря устойчивости защемленной по контуру прямоугольной нанопластины
- Использование генетических алгоритмов для решения задачи поиска оптимального состава реакционной смеси
- Конфигурируемые модели горения в камере сгорания микротурбинного двигателя с возможностью подключения различных физико-химических процессов
- Многоуровневое расщепление в методе Монте-Карло для оценки вероятностей редких событий в пермутационных тестах
- Метод сегментации мышечной ткани на снимках компьютерной томографии на базе предобработанных трехканальных изображений
- Модель адсорбции на эпитаксиальном графене: аналитические результаты